Laburpengintza automatikoa
Laburpengintza automatikoa ordenagailu programa baten bitartez testu baten bertsio laburtua sortzean datza. Prozesu honetan eskuratutako emaitzak jatorrizko testuaren informazio garrantzitsuena mantendu behar du.
Gaur egun dugun informazio kopuru handiak ezinbesteko bihurtu ditu laburpenak. Hori dela eta, garrantzi handiko ikerketa arlo bilakatu da laburpengintza automatikoa. Laburpengintza baliatzen duen adibide bezala Googleren bilatzailea dugu.
Laburpenetan koherentzia mantendu eta oinarrizko informazioa ez galtzeko hainbat aldagai izan behar dira kontuan; hala nola, testuaren luzera, idazketa modua eta sintaxia.
Erauzketa eta laburpena
[aldatu | aldatu iturburu kodea]Orokorrean, bi hurbilketa mota egin dira: erauzketa eta laburpena.
Erauzketarako teknikek jatorrizko testuaren garrantzizko atalak (perpausak, paragrafoak, eta abar) aukeratu eta bere horretan kopiatzen dituzte emaitzan. Laburpenerako teknikek, ordea, testu berria sortzen dute, lengoaia naturalen prozesamendurako teknikak baliatuz. Laburpenek erauzketek baino emaitza hobeak eman ditzakete, gehiago laburtzeko aukera emanez, baina askoz zailagoa da, lengoaiaren prozesamendurako duten beharragatik.
Kontsultan oinarritutako laburpenak
[aldatu | aldatu iturburu kodea]Laburpen generikoez gain, badaude beste laburpen mota batzuk, erabiltzailearen kontsultan oinarritutako laburpenak esate baterako. Honenbestez, erabiltzaileak kontsultaren arabera emaitza bezala emandako laburpena ezberdina izan daiteke. Oso erabilgarriak dira horrelako laburpenak, adibidez, web bilatzaileentzako; Googleren bilatzaileak emaitza bakoitzarekin batera laburpen bat erakusten du, zehaztutako kontsultaren araberakoa izaten dena.
Dokumentu anitzeko laburpengintza
[aldatu | aldatu iturburu kodea]Hainbat sistemak dokumentu bakarrean oinarritutako laburpenak egiten dituzten arren, badaude oinarritzat dokumentu anitz hartzen dituztenak ere; hau dokumentu anitzeko laburpengintza bezala ezagutu ohi da. Horrelako sistemek zailtasun gehiago izaten dituzte, jatorrizko hainbat dokumentu erabiltzeak informazioaren errepikapenak, idazketa mota ezberdinak eta beste zenbait arazo gehigarri dituelako.
Ebaluazioa
[aldatu | aldatu iturburu kodea]Laburpen automatiko baten zuzentasuna ebaluatzea oso zaila izaten da, normalean subjektibotasuna baliatu behar izaten baita, pertsonek ebaluatuz. Pertsonek ebaluatzeak, ordea, denbora eta lan asko suposatzen du, eta oraindik konpondu beharreko arazoa da ebaluazioarena. Dena dela, laburpen bat ebaluatzerakoan kontuan hartzen diren faktoreak koherentzia eta estaldura.
NISTek urtero antolatzen duen Document Understanding Conferences jardunaldietan ebaluazioan lan egiten da, eta bertako erabilitako tekniketako bat ROUGE metrika da (Recall-Oriented Understudy for Gisting Evaluation). Pertsonek eskuz egindako laburpenak automatikoki egindakoekin alderatu, eta n-gramen kointzidentzia izaten du kontuan. Kointzidentzia maila handia bada, laburpenen arteko antzekotasuna handia dela esan nahi du. Teknika honek, ordea, estaldura baino ez du kontuan hartzen, eta ez du koherentzia bermatzen.
Erreferentziak
[aldatu | aldatu iturburu kodea]- Endres-Niggemeyer, Brigitte (1998): Summarizing Information (ISBN 3-540-63735-4)
- Marcu, Daniel (2000): The Theory and Practice of Discourse Parsing and Summarization (ISBN 0-262-13372-5)
- Mani, Inderjeet (2001): Automatic Summarization (ISBN 1-58811-060-5)
Ikus, gainera
[aldatu | aldatu iturburu kodea]Kanpo estekak
[aldatu | aldatu iturburu kodea]- (Ingelesez) Kode irekiko laburtzailea
- (Ingelesez) Laburpengintza estatistikoari buruzko aurkezpena
- (Ingelesez) ACM Special Interest Group on Information Retrieval
- (Ingelesez) Pertinence Summarizer, laburpen eleanitzak burutzeko software komertziala
- (Ingelesez) Copernic, laburpen automatikoak egiteko aukera eskaintzen duen software komertziala
- (Ingelesez) Document Understanding Conferences
- (Ingelesez) Swesum-Online laburtzaile automatikoa, hamar hizkuntzatan